GENIA Tagger

提供者:刘晓
地址:http://www.nactem.ac.uk/tsujii/GENIA/tagger/

简介

GENIA Tagger对生物医学文本进行标记、浅解析和命名实体识别。
GENIA标记器分析英语句子并输出基本形式,词性标记,块标记和命名实体标记。标记器专门针对生物医学文本(如MEDLINE摘要)进行了调整。如果需要从生物医学文档中提取信息,该标记器可能是一个有用的预处理工具。可以尝试演示页面上的标记器。

使用教程

安装:

./geniatagger < RAWTEXT > TAGGEDTEXT
word base POStag chunktag NEtag
word1 base1 POStag1 chunktag1 NEtag1
word2 base2 POStag2 chunktag2 NEtag2
: : : : :

标记器以以上制表符分隔的格式输出基本形式,词性(POS)标记,块标记和命名实体(NE)标记。
块以IOB2格式表示(B表示BEGIN,I表示内部,O表示外部)。

示例:

echo "Inhibition of NF-kappaB activation reversed the anti-apoptotic effect of isochamaejasmin." | ./geniatagger
word base POStag chunktag NEtag
Inhibition Inhibition NN B-NP O
of of IN B-PP O
NF-kappaB NF-kappaB NN B-NP B-protein
activation activation NN I-NP O
reversed reverse VBD B-VP O
the the DT B-NP O
anti-apoptotic anti-apoptotic JJ I-NP O
effect effect NN I-NP O
of of IN B-PP O
isochamaejasmin isochamaejasmin NN B-NP O
. . . O O

通过查看块标签,您可以从该输出中轻松提取四个名词短语(“抑制”,“NF-kappaB激活”,“抗凋亡效应”和“isochamaejasmin”)。您还可以使用指定的实体标签查找蛋白质名称。

相关论文

[1] S. Kulick, A. Bies, M. Liberman, M. Mandel, R. McDonald, M. Palmer, A. Schein and L. Ungar. Integrated Annotation for Biomedical Information Extraction, HLT/NAACL 2004 Workshop: Biolink 2004, pp. 61-68.
[2] Yoshimasa Tsuruoka, Yuka Tateishi, Jin-Dong Kim, Tomoko Ohta, John McNaught, Sophia Ananiadou, and Jun’ichi Tsujii, Developing a Robust Part-of-Speech Tagger for Biomedical Text, Advances in Informatics - 10th Panhellenic Conference on Informatics, LNCS 3746, pp. 382-392, 2005 (pdf)
[3] Yoshimasa Tsuruoka and Jun’ichi Tsujii, Bidirectional Inference with the Easiest-First Strategy for Tagging Sequence Data, Proceedings of HLT/EMNLP 2005, pp. 467-474. (pdf)

上文来源:http://www.nactem.ac.uk/GENIA/tagger/

GENIA Tagger Demo:http://text0.mib.man.ac.uk/software/geniatagger/